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摘 要 : 目前 深度 神经 网 络 模型 需要 部 署 在 资源 受 限 的 环境 中 ， 故 需要 设计 高 效 紧 凑 的 网 络 结构 。 针 对 设计 紧凑 的 
神经 网 络 提出 一 种 基于 改进 注意 力 迁 移 的 模型 压缩 方法 (KE)， 主 要 使 用 一 个 宽 残 差 教 师 网 络 (WRN) 指 导 一 个 紧凑 的 
学 生 网 络 KENeb， 将 空间 和 通道 的 注意 力 迁 移 到 学 生 网 络 来 提升 性 能 ， 并 将 该 方法 应 用 于 实时 目标 检测 。 在 CIFAR 
上 的 图 像 分 类 实验 验证 了 经 过 改进 注意 力 迁 移 的 知识 蒸馏 方法 入 E 够 提升 紧凑 模型 的 ， 性 能 ， 在 VOC 上 的 目标 检测 实 
验 验 证 了 模型 KEDet 具有 很 好 的 精度 (72.7mAP) 和 速度 (86FPS)。 实 验 结果 充分 说 明基 于 改进 注意 力 迁 移 的 目标 检测 
模型 具有 很 好 的 准确 ' 性 和 实时 性 
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Real time object detection method based on improved attention transfer 


Zhang Chias", Liu Hongzhe®™ i 
(a. Beijing Key Laboratory of Information Service Engineering, b. College of Robotics, Beijing Union University, Beijing 
100101, China) 


Abstract: Recently, deep neural networks need to be deployed with low memory and computing resources, so it is necessary 
to design an efficient and compact network structure. This paper proposed a model compression method (KE) based on 
improved attention transfer for the design of compact neural networks, which mainly used a wide residual teacher network 
(WRN) to guide a compact student network (KENet) by extracting both spatial and channel-wise attention to improve the 
performance, and applied this method to real-time object detection. The image classification experiment on CIFAR verified 
that the knowledge distillation method with improved attention transfer can improve the performance of the compact model. 
The object detection experiment on VOC verified that the model KEDet has good accuracy (72.7mAP) and time performance 
(86FPS) . The experimental results show that the object detection model based on improved attention transfer has good 
accuracy and real-time performance. 
Key words: neural network; deep learning; object detection; knowledge distillation; attention transfer 
蒜 ”: 尖 | 普 ee FP 行凶 
署 的 通用 方法 四 ， 可 以 对 目标 检测 模型 进行 
目标 检测 是 自动 驾驶 和 辅助 驾驶 的 重要 环节 ， 主 要 包括 ”的 实时 性 。 对 网 络 进行 参数 压缩 的 方法 主要 包括 剪 枝 [ 汪 、 
车 辆 检测 、 行 人 检测 、 交 通 标志 检测 、 地 面 标志 检测 等 任务 。 化 &10 和 低 秩 分 解 总 5。 除 此 之 外 , 还 可 以 通过 更 有 效 的 着 积 
卷 积 神经 网 络 (CNN) 在 目标 检测 任务 中 取得 了 显著 的 成 绩 ， [3715] 设 计 更 加 紧凑 的 结构 ， 或 使 用 知识 迁移 11'S( 又 称 为 知 
这 很 大 程度 上 依赖 于 强大 的 计算 能 力 和 存储 资源 中。 但 在 自 识 蒸馏 )， 从 一 个 大 的 “教师 ”模型 中 提取 知识 来 帮助 训练 一 


让 


一 


动 驾 驶 等 领域 往往 资源 受 限 , 使 得 神经 网 络 很 难 部 署 。 因 此 ， 个 小 的 “学 生 ” 模 型 ， 这 样 可 以 提高 “学 生 ” 模 型 的 性 能 。 注 意 

如 何在 保证 性 能 的 前 提 下 有 效 地 降低 神经 网 络 的 计算 和 存储 力 迁 移 (attention transfeD 是 一 种 改进 的 知识 蒸馏 knowledge 

成 本 ， 是 一 个 吸 待 解决 的 关键 问题 。 distillation) 方 法 ,通过 将 注意 力 机 制 引 入 知识 蒸馏 模型 ， 并 让 学 
基于 卷 积 神经 网 络 的 目标 检测 主要 是 以 R-CNNP? 


系列 生 网 络 和 教师 网 络 的 注意 力 激活 分 布 尽 可 能 接近 。 
为 代表 的 基于 区 域 提取 (region proposal) 的 方法 ， 也 称 为 二 阶 注意 力 迁 移 主 要 用 于 改进 卷 积 神经 网 络 ， 本 文 基 于 注意 
段 (two-stage) 法 。 首 先 基于 图 片 提出 可 能 存在 物体 的 候选 区 力 迁 移 对 轻 量化 卷 积 模型 进行 了 改进 ， 提 取 了 空间 和 通道 两 
域 (region of interest)， 再 通过 候选 区 域 来 预测 目标 的 类 别 的 个 维度 的 知识 ， 弥 补 了 轻 量化 模型 的 不 足 ， 提 出 了 名 为 知识 
位 置 。 这 类 方法 检测 精度 较 高 , 在 大 规模 数据 集 上 表现 良好 。 增强 的 蒸 馅 方法 。 基 于 知识 增强 的 方法 ， 本 文 进 一 步 提出 了 
然而 这 类 方法 往往 计算 量 很 大 并 且 运行 速度 很 慢 ， 为 了 在 保 基于 改进 SSD 的 实时 目标 检测 模型 。 通 过 在 多 个 数据 集 上 的 
证 准确 率 的 同时 减 小 计算 量 ， 提 升 运 行 效率 和 实时 性 ， 出 现 实验 ， 验 证 了 基于 改进 注意 力 迁 移 的 目标 检测 模型 具有 很 好 
了 以 YOLOBl、SSD 所 为 代表 的 单 阶段 (one-stage) 目 标 检 测 框 的 准确 性 和 实时 性 。 

。 这 类 方法 通过 将 图 片 划 分 成 相同 大 小 的 网 格 ， 根 据 网 格 5 Ns 

预测 目标 的 类 别 和 位 置 。 在 此 基础 上 的 一 系列 新 方法 通过 1 ”基于 改进 注意 力 迁 移 的 知识 茶 馏 算 ; 

合 多 尺度 特征 、 联 系 上 下 文 信息 以 及 简化 网 络 结构 ， 进 1.1 轻 量 化 卷 积 结构 
提升 了 目标 检测 的 速度 和 精度 器。 现 有 的 高 性 能 目标 检测 模型 往往 使 用 更 加 轻 量 化 的 卷 积 
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结构 作为 主干 网 络 ,下面 来 分 析 一 下 这 些 结构 ,在 图 1(a) 中 ， CC etca +2| F(4) F(A) 而 
N 是 输入 通道 数 ，K XK 是 每 个 卷 积 核 的 大 小 ，M 是 输出 通 各 六 IEC 


道 数 ， 总 计算 成 本 为 NK?M。 传 统 卷 积 的 空间 维 数 是 卷 积 核 其 中 :s 和 上 分 别 表示 学 生 和 教师 ，o(%) 是 softmax 函数 ， 
的 大 小 K? ， 而 通道 维 数 是 输入 和 输出 通道 数 NxXM。 C(c4o,n 表示 标准 交叉 业 损 失 。: 表示 从 教师 和 学 生 中 选取 
减少 参数 的 第 一 种 方法 是 将 每 个 卷 积 分 成 G 组 ,如 图 1(b) ”的 激活 层 ，i=42…,N 。& 和 性 分 别 表示 教师 和 学 生 的 激活 
所 示 。 与 标准 卷 积 NK?M 的 计算 成 本 相 比 ， 这 种 操作 将 计算 特征 。F(4) 表示 注意 力 映 射 函 数 , 它 将 三 维 的 注意 力 激活 张 
量 减少 1/G。 在 分 组 卷 积 之 后 使 用 1X1 逐 点 卷 积 来 提供 一 些 。 量 映 射 为 二 维 注意 力 激活 图 。 使 用 F(4)=41N)>,@ 作为 映射 函 


跨 通 道 的 信息 ， 它 的 计算 成 本 为 NXM。 总 计算 量 为 ” 数 ， 其 中 & 表 示 第 i 层 中 通道 j 的 激活 特征 向 量 。6 是 一 个 

NK?M+NM 。 此 方法 已 在 AlexNet [9] ，Xnception 20 和 ” 超 参数 ，p 是 范 数 类 型 ， 这 里 令 p=2。 

ShuffleNet L415 中 使 用 。 为 了 解决 轻 量 化 结构 的 信息 丢失 问题 ， 本 文 基于 注意 力 
还 有 一 种 方法 是 使 用 窗 而 深 的 残 差 网 络 (如 ResNet， 迁移 模型 进行 了 改进 ， 将 空间 和 通道 两 个 维度 来 提取 知识 ， 

MobileNet 等 ) 来 代替 宽 而 浅 的 神经 网 络 (如 VGG16)， 本 质 上 ”重新 定义 了 注意 力 激活 图 ， 提 出 了 称 为 知识 增强 的 模型 。 对 

是 引入 了 瓶颈 (bottleneck) 结 构 。 如 图 1(c) 所 示 ， 第 一 个 1X1 ”于 激活 特征 图 4eR” ,本 文 首先 使 用 特征 图 通道 间 的 关系 


逐 点 卷 积 将 输入 通道 维 数 N 减 小 B 倍 ， 然 后 进行 KXK 卷 ”来 生成 通道 维度 的 知识 。 为 了 聚合 空间 信息 ， 本 文采 用 平均 


积 ， 最 后 ， 一 个 1X1 逐 点 卷 积 恢复 输出 通道 M 的 尺寸 。 总 池 化 用 于 生成 空间 上 下 文 描述 符 ， 然 后 将 描述 符 输入 一 个 全 
计算 成 本 为 NK?M/B?+NK/B+MK/B。 连接 网 络 ， 以 生成 基于 通道 的 知识 K.e RY 。 同 时 ， 本 文 利 
re ee rs Pa 用 特征 图 的 空间 关系 来 生成 空间 知识 。 首 先 沿 通道 轴 使 用 平 
Ese | em ，。 均 池 化 操作 以 生成 有 效 的 特征 描述 符 ， 然 后 输入 一 个 卷 积 层 
家 = | 产生 空间 知识 Ke R” 。 基 于 这 两 种 知识 ， 本 文 对 注意 力 激 
“ ww " -~ " 活 张 量 的 知识 进行 了 增强 ， 并 生成 了 增强 后 的 激活 特征 
机 es 已 sReswe 。 完 整 的 计算 过 程 为 
本 K.(A) =0(FC(Po0l(A)) O) 
| 三 世 闪 前 一 ， K,(A) =o(Conv(Pool(A)) G) 
a。 LVM A E=K.(A)®K.(4)®A (4) 
四 其 中 ，@ 表示 逐 元 素 点 乘 。 最 后 , 为 教师 和 学 生 分 别 生成 了 
图 1 轻 量 化 卷 积 结构 知识 增强 激活 图 fF(E)。 
Fig. 1 Lightweight convolutional modules 改进 后 的 注意 力 迁 移 模 型 如 图 3 所 示 ， 于 该 模型 提取 
基于 以 上 两 种 方法 本 文 提出 了 新 的 轻 量 化 卷 积 结构 : 了 空间 和 通道 的 知识 来 进行 注意 力 迁 移 ， 弥 补 了 轻 量 化 卷 积 
KENet。 首 先 , 将 1X1 分 组 卷 积 用 于 降 维 ， 然 后 执行 传统 的 模型 丢失 的 信息 ， 故 将 其 命名 为 知识 增强 模型 。 将 知识 增强 
3X3 卷 积 , 最 后 , 使 用 1X1 逐 点 卷 积 恢复 输出 通道 的 尺寸 。 模型 部 署 在 KENet 等 轻 量 化 模型 之 中 ， 仅 仅 增 加 了 3% 左 右 
总 计算 成 本 为 NK/ GB+NK?M /GB?+MK/B。 4 参数 ,额外 的 参数 主要 集中 在 产生 空间 知识 的 FC 层 之 中 ， 
使 用 分 组 卷 积 和 瓶颈 结构 是 减少 参数 的 常用 方法 ， 但 这 对 于 模型 的 整体 参数 而 言 可 以 忽略 不 计 。 
也 会 带 来 信息 的 流失 。 如 图 2(a) 所 示 ， 从 空间 维度 来 看 ， 罕 Spa smalle 
而 深 的 残 差 网 络 使 用 较 小 的 卷 积 核 ， 这 会 使 感受 野 变 小 , 从“ tintin ee ai ai 而 
而 丢失 了 一 些 空间 上 下 文 信息 。 如 图 2(b) 所 示 ， 从 通道 维度 pA | 四 
来 看 ， 使 用 分 组 卷 积 会 将 通道 隔离 ， 以 使 不 同 组 之 间 的 信息 ~ m1 mp 
无 法 流通 。 典 型 的 轻 量化 网 络 如 MobileNet 使 用 深度 可 分 离 i — ti 
卷 积 ， 它 将 每 个 通道 都 分 为 一 组 ， 过 多 的 分 组 将 大 大 降低 运 四 ee 
行 速度 。 为 了 解决 这 些 问 题 ， 可 以 在 训练 过 程 中 ， 使 用 一 个 图 3 ”知识 增强 模型 
学 习 能 力 强 的 教师 模型 ， 通 过 添加 额外 的 监督 信号 来 进行 知 Fig.3 Knowledge enhance module 
识 迁 移 。 图 4 中 可 视 化 了 在 ResNet50 的 最 后 一 个 卷 积 层 的 激活 
一 sw ES 图 ， 对 知识 增强 前 后 的 效果 进行 了 对 比 。 红 色 部 分 表示 强烈 
SxS con Con 站 | 的 激活 并 对 最 终结 果 作 出 了 巨大 贡献 的 部 分 。 不 难 发 现 ， 在 
汪 使 用 本 文 提出 的 知识 增强 模块 后 ， 网 络 更 倾向 于 关注 有 用 的 
“™ VYYYYN “mA! | 区 域 。 换 句 话 说 ， 通 过 增强 空间 知识 和 通道 知识 ， 本 文 所 提 
1 全 出 的 方法 使 网 络 的 注意 力 更 加 集中 并 提高 了 网 络 性 能 。 
Ey ds 时 加 


图 2 不 同 卷 积 核 在 空间 和 通道 维度 的 投影 
Fig.2 了 Projection of different convolutional kernels in spatial and 


channel-wise dimensions 
1.2 改进 的 注意 力 迁移 算法 
注意 力 迁 移 是 一 种 改进 的 知识 蒸馏 方法 。 它 采用 了 迁移 
学 习 的 思想 ， 将 教师 网 络 中 间 层 的 激活 分 布 被 视 为 源 域 ， 而 
学 生 网 络 的 相应 分 布 被 视 为 目标 域 ， 通 过 最 小 化 源 域 和 目标 
域 之 间 的 距离 ， 达 到 注意 力 迁 移 的 目的 。 
注意 力 迁 移 通过 激活 图 在 中 间 层 的 一 些 注意 点 来 测量 学 如 4 注意 的 可 视 化 
生 与 教师 之 间 的 距离 ， 其 损失 函数 定义 如 下 : Fig.4 Visualization of the activation maps 
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2 ”基于 改进 SSD 的 实时 目标 检测 模型 


SSD(single shot multibox detector) 是 一 个 轻 
标 检测 算法 , 输入 一 张 图 片 , 经 过 SSD 后 直接 生成 分 类 
SSD 的 损失 函数 有 


段 
和 定位 结果 ， 
如 下 形式 : 


| Ml 
党 


体 框架 结构 如 


实现 了 


量 级 的 单 阶 


端 到 端的 目 


标 检测 。 


1 1 
Lssp = 六 > Lsto 六 > Le 
i 了 


其 中 上 是 分 类 损失 ， 
因子 。 本 文 基于 


Lo | N 是 正 村 


知识 蒸馏 的 思 


图 5 所 示 。 


Activation map ， classification 吕 regr 


图 


Fig. 5 


其 中 将 分 类 


@ ”知识 增强 损失 De 


ctivation map| | class sification 


学 生 CNN 


于 知识 蒸馏 的 改革 


分 类 损失 | 


标 检测 模型 


Improved object detection model based on 


knowledge distillation 


损失 表示 为 


Li =ADwa(P, yo)+( -NLoa(P,P) 


内 中 Po 十 使 ) | 
Ln(P,P)=-》w.PlogP 是 使 月 
损失 。 定 位 损失 可 以 表示 为 


学 生 的 真实 标签 yu 


Le = Loonn (Rs, Yioe) + vhs, (R,, R,, yw.) 


A 中 Loomri 是 使 用 真 


实 标签 we 和 学 生 的 


此 外 ， 


损失 ， 而 五 表示 一 个 惩罚 项 ， 
本 误差 的 差距 超过 一 个 界限 m 时 进行 惩罚 ， 即 
本 I -Jo 此 当 |R, - yi 


0 


在 学 生 的 下 


+m> 


其 他 


N 


= 之 


F(E:) 
EC 


2 


型 KEDet 损失 函数 为 


Lrgpar = 
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引入 上 文 介绍 的 改进 的 注意 力 迁移 (知识 增强 ) 算 
法 ， 添 加 一 个 知识 增强 损失 : 
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有 两 个 主要 参数 : 深度 d 和 宽度 其 中 深度 d 与 卷 积 模块 
we 加 6(n+4), ee 决定 了 这 些 模块 中 
滤波 器 的 通道 大 小 。 宽 残 差 网 络 的 卷 积 部 分 由 一 个 初始 卷 积 
层 和 三 个 主要 卷 积 块 组 成 。 

实验 使 用 带 有 标准 残 差 模块 的 WRN-40-2( 宽 残 差 网 络 的 
深度 为 40， 宽 度 乘 数 为 2)。 每 个 标准 模块 由 两 个 3X3 卷 积 
核 组 成 。 本 文 将 使 用 以 下 的 模块 进行 对 比 实验 ; 

a) 分 组 卷 积 模块 ， 命 名 为 Gconv(G)，G 是 
取 {2,4,8,16}。 
b) 具有 2 倍 通道 收缩 的 瓶颈 模块 , 称 为 Botteleneck(B)， 
其 中 B = 2 是 通道 收缩 倍数 。 

c) 典型 的 轻 量 级 卷 积 神经 网 络 MobileNet， 使 
分 离 卷 积 (Depthwise Separable Convolution, DSC) 。 

d) 本 文 设计 了 知识 增强 网 络 KENet(G,B) 将 瓶颈 结构 与 
分 组 卷 积 结合 在 一 起 ， 使 用 B = 2 是 分 组 数 G 为 {2,4,8,16}。 

本 文 将 知识 增强 (KE) 方 法 与 在 没有 知识 蒸馏 的 情况 下 训 
练 的 模型 进行 了 比较 。 使 用 了 4 个 Titan V GPU，minibatch 
大 小 为 128， 使 用 随机 梯度 下 降 对 网 络 进行 200 个 周期 的 训 
练 , 动量 为 0.9, 初始 学 习 率 为 0.1。 每 60 个 迭代 将 学 习 率 降 
低 0.2 倍 。 超 参数 B 设置 为 1000。 

表 1 给 出 了 上 述 结构 在 CIFAR10 数据 集 上 进行 图 像 分 
类 的 表现 。 首 先 比较 不 同 卷 积 模块 的 计算 成 本 ， 可 以 看 出 ， 
通过 分 组 卷 积 和 瓶颈 结构 可 以 实现 有 效 的 参数 压缩 ，KENet 
将 二 者 结合 可 以 将 参数 压缩 10-20 倍 。 根 据 基 于 不 同 结构 进 
行 知识 燕 馏 得 到 的 实验 结果 可 以 看 出 ， 使 用 本 文 提出 的 知识 
增强 方法 训练 的 学 生 模型 的 表现 要 明显 优 于 直接 训练 的 结果 。 
当 KENet 作为 学 生 并 且 使 用 知识 增强 作为 蒸馏 模型 时 , 能 够 
实现 更 有 效 的 模型 压缩 ， 并 且 精 度 损失 很 小 。 由 于 KENet 的 
参数 远 远 少 于 教师 和 其 他 学 生 模 型 ， 这 不 可 避免 地 导致 准确 
性 下 降 。 由 于 知识 增强 模型 提供 了 空间 和 通道 信息 ， 通 过 
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其 中 F(E) 是 知识 增强 激活 图 。 最 终 改进 的 实时 
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忆 此 ， 需 要 在 
测 精度 。SSD 


保证 检 


， 但 却 以 牺牲 精度 


型 在 SSD 的 基 


法 进一步 提升 


础 上 对 主干 


测速 度 达到 实时 的 者 
这 类 单 阶段 检测 算法 可 以 在 一 定 程度 
。 本 文 提 昌 


为 代价 


础 上 ， 


度 就 越 慢 。 


量 提升 检 


型 代替 原来 的 VGG 模型 ,提升 了 效率 ， 
了 检测 精 
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本 文 使 ) 


宽 残 差 


网 络 进行 了 精简 ， 


KENet 及 知识 增强 算法 的 有 效 性 


上 达到 实 


的 KEDet 目标 检测 模 
更 用 KENet 
通过 知识 增强 算 


模 


类 实验 对 知识 增强 的 性 能 进行 评估 ， 实 


型 的 学 生 网 络 (Gconv、Bottleneck 和 
同一 教师 网 络 中 提炼 出 来 的 。 选 用 
Advanced Research (CIFAR) 数 据 鲁 
图 像 分 类 实验 , 并 使 用 官方 指标 (top-1 错误 率 ) 
网 络 (WRN) 作 为 实验 的 基本 结构 。 它 具 


作为 评估 标准 。 


进行 


wy 


识 增 强 方法 训练 出 的 KENet 的 准确 性 有 了 显著 的 提升 。 


表 1 CIFAR10 上 不 同 结构 的 分 类 误差 
Tab.1 Testerror of different architectures on CIFAR10 
block architecture complexity baseline KE 
Teacher: 
basic 2238.6K 4.79 
WRN-40-2 
GConv (2) 1357.4K 5.30 4.87 
GConv (4) 813.1K 5.50 5.00 
Gconv(G) 
GConv (8) 541.0K 5.92 5.05 
GConv (16) 404.9K 6.65 5.13 
Bottleneck(B) Bottleneck (2) 430.5K 6.36 5.37 
DWC MobileNet 423.0K 8.61 6.64 
KENet (2,2) 2S7.6K 7.14 S.S7 
KENet (4,2) 170.2K 7.82 6.58 
KENet(G,B) 
KENet (8,2) 126.6K 8.40 6.83 
KENet (16,2) 104.7K 8.78 7.76 
3.2 实时 目标 检测 模型 的 评估 
为 了 验证 本 文 提出 的 实时 目标 检测 模型 KEDet 的 有 效 
性 ， 将 改进 的 SSD 检测 模型 与 原 有 SSD 模型 进行 对 比 ， 并 
且 选 用 二 阶段 检测 模型 Faster-RCNN 也 作为 对 比 ， 评 估 了 使 用 
不 同 主干 网 络 的 检测 性 能 。 采 用 目标 检测 公共 数据 集 Pattem 


Analysis, Statistical Modelling and Computational Learning Visual 
Object Classes (PASCAL VOC) 对 模型 的 性 能 进行 评估 。 使 用 平 
均 检测 准确 率 (mean average precision, mAP) 来 评估 检测 精度 , 并 
用 每 秒 传输 帧 数 (FPS) 作 为 实时 性 的 评价 标准 。 
实验 采用 VOC2007 和 VOC2012 作为 训练 数据 集 , 输入 
图 像 大 小 为 300, 使 用 具有 4 块 TITANV GPU 的 服务 器 训练 


250 个 epoch， 并 在 VOC2007 测试 集 上 进行 性 能 评估 ， 测 试 


录用 定稿 


设备 是 具有 一 块 GTX 1080 显卡 的 移动 终端 (笔记 本 电脑 )。 
表 2 给 出 了 Faster-RCNN、SSD 和 KEDet 模型 的 测试 结 

果 。Faster-RCNN 作为 典型 的 二 阶段 检测 模型 ， 无 论 是 基于 
VGG16 还 是 ResNet101 都 具有 较 高 的 检测 精度 , 但 检测 速度 
较 慢 ， 无 法 达到 实时 (30FPS 以 上 )。 而 SSD( 基 于 VGG16) 作 
为 有 代表 性 的 单 阶段 检测 模型 ， 在 保证 检测 精度 的 基础 上 达 
到 了 实时 (4SFPS)。 但 由 于 基于 VGG16 的 SSD 在 实际 部 署 的 
效果 并 不 好 ,， 所 以便 产生 了 基于 MobileNet 的 SSD 目标 检测 
模型 , 它 牺牲 了 一 定 的 检测 精度 (68.1mAP), 提升 了 检测 速度 
(83FPS), 并 且 在 实际 部 署 中 表现 良好 。 然 而 , 正如 本 文 所 述 ， 
MobileNet 模型 使 用 了 Depthwise Separable Convolution， 过 
多 的 分 组 导致 了 组 间 信 息 隔 离 ， 并 且 降 低 了 运行 速度 。 于 是 
本 文 提出 了 KENet 来 代替 MobileNet 作为 新 的 主干 网 络 ， 降 
低 了 分 组 数 ， 提 升 了 一 定 的 性 能 。 

表 2 VOC2007 上 不 同 结构 的 检测 精度 和 速度 对 比 

Tab.2 Detection accuracy and Speed comparison of 

different structures on VOC2007 


I 


detector backbone params mAP FPS 

VGG16 74.2 12 
Faster-RCNN 

ResNet101 76.4 7 
VGG16 26.5M 74.8 45 
SSD300 MobileNet 5.8M 68.1 83 
KENet(2,2) 5.5M 68.5 86 
VGG16 30.2M 76.1 44 
KEDet MobileNet 6.0M 71.4 82 
KENet(2,2) S.7M TT 86 


与 此 同时 ， 本 文通 过 知识 增强 方法 对 检测 模型 进行 了 改 
进 ， 提出 了 KEDet 检测 模型 , 通过 改进 的 注意 力 迁移 方 法 对 
原 有 模型 进行 知识 蒸馏 ,从 而 弥补 了 轻 量化 模型 丢失 的 信息 。 
KENet 与 VGG16 相 比 , 通过 bottleneck 结构 使 得 网 络 层 数 更 
深 ， 并 且 大 大 压缩 了 参数 量 。 与 MobileNet 相 比 ， 用 少量 的 
分 组 代替 了 深度 可 分 离 卷 积 ， 提 升 了 检测 精度 和 速度 。 实 验 
结果 表明 ,KEDet 在 提升 检测 精度 (72.7mAP) 的 同时 还 保证 了 
检测 速度 (86FPS)， 具 有 很 好 的 准确 性 和 实时 性 。 


4 ”结束 语 


本 文 提 出 了 一 种 基于 注意 力 迁 移 的 知识 蒸馏 方法 ， 并 将 
其 应 用 在 SSD 模型 中 进行 了 改进 , 提出 了 一 个 实时 的 目标 检 
测 模型 KEDet。 首 先 通 过 分 析 轻 量化 卷 积 结构 的 特点 ， 提 出 
了 一 个 结合 分 组 卷 积 和 瓶颈 结构 的 轻 量 化 卷 积 模型 KENet。 
然后 提出 了 基于 注意 力 迁移 的 知识 蒸馏 方法 , 对 KENet 模型 
进行 了 知识 增强 ， 并 使 用 CIFAR 数据 集 进行 图 像 分 类 实验 ， 
验证 了 知识 增强 的 有 效 性 。 基 于 此 , 提出 了 改进 SSD 的 实 扩 
目标 检测 模型 KEDet， 并 在 VOC 数据 集 上 进行 了 验证 。 实 
验 结果 表明 , 本 文 提 出 的 KEDet 模型 具有 较 高 的 检测 精度 和 
检测 速度 ， 同 时 具备 了 准确 性 和 实时 性 。 未 来 的 研究 还 可 以 
结合 剪 枝 算法 以 及 神经 架构 搜索 等 ， 进 一 步 探 索 更 加 高 效 的 
网 络 结构 和 压缩 算法 来 提升 检测 效率 。 


参考 文献 : 


[1] 张 军 阳 ， 王 慧 丽 ， 郭 阳 ， 等 , 深度 学 习 相 关 研 究 综述 [有 J]. 计算 机 应 
用 研究 , 2018, 35(7): 1921-1928. (Zhang Junyang，Wang Huili, Guo 


T 


油 


Yang, et al. Review of deep learning [J]. Application Research of 
Computers, 2018, 35(7): 1921-1928.) 

[2] Ren Shaoqing，He Kaiming, Girshick R, et al. Faster r-cnn: Towards 
Real-time Object Detection With Region Proposal Networks [Cl]// 
Advances in Neural Information Processing Systems. 2015: 91-99. 

[3] Redmon J, Divvala S$, Girshick R, et al. You only look once: Unified, 


张 弛 ， 等 : 基于 改进 注意 力 迁 移 的 实时 目标 检测 方法 


hinaVi 合作 
CNINAIV 


第 38 卷 第 3 期 


real-time object detection [C]/ Proc of IEEE Conference on Computer 
Vision and Pattern Recognition. 2016: 779-788. 

[4] Liu Wei, Anguelov D, Erhan D, et al. SSD: Single shot multibox detector 
[CI/ Proc of European Conference on Computer Vision. Cham: Springer, 
2016: 21-37. 

[5] 张 琳 娜 ， 陈 建 强 ,， 陈 晓 玲 ， 岭 姻 刚 , 闪 世 超 . 面向 行车 视频 目标 实时 
检测 的 轻 量 级 SSD 网 络 [J]. 计算 机 科学 , 2019, 46 (7): 233-237. 
(Zhang Linna, Chen Jianqiang, Chen Xiaoling, et al. Lightweight SSD 
network for real-time object detection in automotive videos [J]. 
Computer Science, 2019, 46 (7): 233-237.) 

[6] 曹 文 龙 ,， 芮 建 武 ， 李 敏 . 神经 网 络 模型 压缩 方法 综述 [可 . 计算 机 应 
用 研究 , 2019(3): 649-656. (Cao Wenlong, Rui Jianwu, Li Min. Survey 
of neural network model compression methods [J]. Application Research 
of Computers, 2019(3): 649-656.) 

[7] Yoon J, Hwang S J. Combined group and exclusive sparsity for deep 
neural networks [Cl]// Proc of the 34th International Conference on 
Machine Learning. 2017: 3958-3966. 

[8] Liu Zhuang, Li Jianguo, Shen Zhiqiang, et al. Learning efficient 
convolutional networks through network slimming [C]// Proc of IEEE 
International Conference on Computer Vision. 2017: 2736-2744. 

[9] Courbariaux M, Bengio Y, David J P. Binaryconnect: Training deep 
neural networks with binary weights during propagations [Cl]// Advances 
in Neural Information Processing Systems. 2015: 3123-3131. 

[10] Hubara I, Courbariaux M, Soudry D, et al. Binarized neural networks 
[C]/ Advances in Neural Information Processing Systems. 2016: 4107- 
4115. 

[11] Wang Weiqi, Sun Yifan, Eriksson B, et al. Wide compression: Tensor ring 
nets [Cl]// Proc of IEEE Conference on Computer Vision and Pattern 
Recognition. 2018: 9329-9338. 

[12] Zhang Xiangyu, Zou Jianhua, He Kaiming, et al. Accelerating very deep 
convolutional networks for classification and detection [J]. IEEE Trans 
on Pattern Analysis and Machine Intelligence, 2015, 38 (10): 1943-1955. 

[13] Sandler M, Howard A, Zhu Menglong, et al. Mobilenetv2: Inverted 
residuals and linear bottlenecks [Cl]// Proc of IEEE Conference on 
Computer Vision and Pattern Recognition. 2018: 4510-4520. 

[14] Zhang Xiangyu, Zhou Xinyu, Lin Mengxiao, et al. Shufflenet: An 
extremely efficient convolutional neural network for mobile devices 
[C]/ Proc of IEEE Conference on Computer Vision and Pattern 
Recognition. 2018: 6848-6856. 

[15] Ma Ninging, Zhang Xiangyu, Zheng Haitao, et al. Shufflenet v2: 
Practical guidelines for efficient cnn architecture design [C]/ Proc of 
European Conference on Computer Vision. 2018: 116-131. 

[16] Hinton G, Vinyals O, Dean J. Distilling the knowledge in a neural 
network [EB/OL]. (2015-03-05) . https://arxiv. org/abs/1503. 02531. 

[17] Zagoruyko S, Komodakis N. Paying more attention to attention: 
Improving the performance of convolutional neural networks via 
attention transfer [EB/OL]. (2016-12-12) . https://arxiv. org/abs/1612. 
03928. 

[18] Yim J, Joo D, Bae J, et al. A gift from knowledge distillation: Fast 
optimization, network minimization and transfer learning [Cl]// Proc of 
IEEE Conference on Computer Vision and Pattern Recognition. 2017: 
4133-4141. 

[19] Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with 
deep convolutional neural networks [Cl// Advances in Neural 
Information Processing Systems. 2012: 1097-1105. 

[20] Chollet F. Xception: Deep learning with depthwise separable 
convolutions [C]// Proceedings of IEEE Conference on Computer Vision 
and Pattern Recognition. 2017: 1251-1258. 


